大模型不香了?科技巨头为何开始押注小模型
近日
微软和英伟达相继发布了
最新的小型语言模型
Phi-3.5-mini-instruct
和Mistral-NeMo-Minitron8B
科技巨头纷纷押注小模型
大模型不香了?
小模型焕发新生
近年来
科技巨头们竞相开发
规模庞大的语言模型
2024世界智能产业博览会一景。
图源:新华社
但随着科技巨头的加码
小型语言模型(SLM)正逐渐崭露头角
挑战着过去“越大越好”的观念
据媒体介绍
Phi-3.5-mini-instruct
和Mistral- NeMo- Minitron8B
主要卖点是
它们在计算资源使用和
功能表现之间实现了良好的平衡
在某些方面
它们的性能甚至可以媲美大模型
人工智能初创公司Hugging Face
首席执行官
曾被《时代》周刊评为全球AI领袖的
克莱门特·德朗格表示
高达99%的使用场景
可以通过SLM来解决
他预测2024年
将成为SLM之年
据不完全统计
包括谷歌、微软、Meta等
在内的科技巨头们
今年已经发布了
九款小型模型
此前苹果发布的
Apple Intelligence
就被媒体认为
苹果倾向于利用设备端的小模型
来提升用户体验
这是2024年3月4日在比利时布鲁塞尔市中心拍摄的一家美国苹果公司门店。
图源:新华社
小模型的崛起并非偶然
小模型的崛起与大模型(LLM)
在性能提升、资源消耗方面的挑战
密切相关
7月2日,工作人员在2024全球数字经济大会数字经济沉浸式体验区与数字人交流。
图源:新华社
训练和运行大模型所需的
计算能力和能源消耗
令人咋舌
这使得小型组织或个人
难以参与核心大模型开发
国际能源署估计
数据中心、加密货币
和人工智能相关的电力消耗
到2026年
会大致相当于日本全国的用电量
大模型的另一个重大问题
是容易产生“幻觉”
即模型生成的输出看似合理
但实际上并不正确
但不可否认的是
大模型仍然是行业发展的大趋势
360集团创始人、董事长
周鸿祎曾表示
未来5-10年互联网的风口是
大模型和人工智能
百度创始人、董事长兼
首席执行官李彦宏也曾表示
大模型将渗透更多领域
重构全球数字化产业
大模型
无法完全取代小模型
今年四月份
AI初创公司Vellum和Hugging Face
发布的性能比较表明
大模型之间的性能差距
正在迅速缩小
基于对大模型巨大能源需求的担忧
以及为企业提供
更多样化AI选项的市场机会
让科技公司将注意力逐渐转向了小模型
与大模型相比
小模型的主要优势是高效
针对特定应用的专业化
与在特定领域不易出现“幻觉”
尽管说
在某些方面小模型的性能
并不逊于
甚至是强于大模型
但这些优势
也恰恰限制了小模型
在特定领域之外
小模型的表现不佳
缺乏广泛的数据库
也无法与大模型相比
2024年5月30日,在瑞士日内瓦举行的2024年“人工智能造福人类全球峰会” 上,参会者和AI机器人下棋。
图源:新华社
业界人士表示
大模型与小模型之间存在本质区别
且各自具有独特的应用场景
因此大模型无法完全取代小模型
点击文末“阅读原文”
进入世界互联网大会官网
✦
相关阅读
✦
撰文:李飞、孙新武 排版:李汶键 统筹:李政葳
参考丨科技日报、国是直通车、新华网、中国新闻网、每日经济新闻
扫描二维码
关注我们
戳我~ 一键进入官网